LLM 訓練服務使用說明
概述
本專案流程提供模型微調訓練服務,使用者可自行選擇基礎模型(base model),並且自行提供訓練資料,進行特定任務/能力微調。
專案執行位置: https://jenkins.genai.nchc.org.tw/job/02-llm%20training/
前置需求
GitLab 專案 (Repository)
使用者將藉由 Gitlab Repository 提供微調訓練資料,請按照以下步驟完成前置準備:
-
請先自行建立專案
-
申請存取令牌(Access tokens)
(1) 申請方式:進入欲使用的專案 -> Settings -> Access tokens -> Add new token
(2) Scopes 選擇 read_repository, write_repository
(3) Role 選擇 Maintainer 或 Owner
(4) 存取令牌申請完成後,請務必存放在安全的地方,離開頁面後便無法再取得
-
取得專案 URL
GIT_REPO_URL
-
將你的資料放置到專案並上傳
如果你的資料小於100MB
git clone <GIT_REPO_URL>
cd <git_repo_dir>
cp <DATA_FILES> . # 將你的資料複製到專案路徑
git push origin main # 推回你的遠端專案如果你的資料大於100MB,請使用 git LFS 安裝頁面
Ubuntu 安裝 GIT LFS# Install Git LFS
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get update
sudo apt-get install git-lfs
git lfs install
# 設定 LFS track,這裡假設要追蹤 .jsonl 檔案類型
git lfs track "*.jsonl"
git add .
git commit -m "設定 LFS 追蹤 .jsonl 檔案"
參數說明
基本設定
參數名稱 | 類型 | 說明 |
---|---|---|
GIT_REPO_URL | 字串 | 『必填』請填入自行建立的 Git repository URL (例: https://gitlab.genai.nchc.org.tw/swchen/rhap-press-demo.git) |
GIT_REPO_TOKEN | 密碼 | Git repository 的存取令牌 (Access token); 請參考前置需求(需有 Maintainer/Owner 權限; 例: glpat-xxx) |
服務專屬設定
模型相關參數
參數名稱 | 類型 | 說明 |
---|---|---|
BASE_MODEL | 下拉選單 | 選擇基礎模型 (支援 1B/3B/8B 多種規格) |
流程參數
參數名稱 | 類型 | 說明 |
---|---|---|
DATA_FILES | 字串 | 訓練資料檔案路徑,多檔案請用逗號分隔,如:data/train_set_1.jsonl, data/train_set_2.jsonl 僅接受 JSONL 格式檔案 |
MAX_EPOCHS | 下拉選單 | 最大訓練週期數 (1~5),預設 1 |